视频Panoptic semonation(VPS)旨在为每个像素分配类标签,唯一地分割和识别所有帧的所有对象实例。经典解决方案通常将VPS任务分解为多个子任务,并利用多个代理(例如框和掩码,中心和偏移)来表示对象。然而,这种鸿沟和征服策略需要在空间和时间域中进行复杂的后处理,并且易于来自代理任务的失败。在本文中,灵感来自以对象为中心的学习,它学习紧凑且强大的对象表示,我们呈现了Slot-VPS,这是此任务的第一个端到端框架。我们在视频中编码所有Panoptic实体,包括前景实例和后台语义,其中包含称为Panoptic插槽的统一表示。通过提出的视频Panoptic Retriever检索并将相干的时空对象的信息检索并编码到Panoptic插槽中,使其能够以统一的方式本地化,段,区分和关联对象。最后,输出Panoptic插槽可以直接转换为视频中Panoptic对象的类,掩码和对象ID。我们开展广泛的消融研究,并展示了我们对两个基准数据集,CityCAPE-VPS(\ Texit {Val}和测试集)和Viper(\ Texit {val}集)的有效性,实现了新的最先进的性能分别为63.7,63.3和56.2 VPQ。
translated by 谷歌翻译